課程大綱

課程資訊

課程名稱	數位語音處理概論 Introduction to Digital Speech Processing
開課學期	105-2
授課對象	電機資訊學院資訊工程學研究所
授課教師	李琳山
課號	CSIE4611
課程識別碼	922 U3680
班次
學分	3.0
全/半年	半年
必/選修	選修
上課時間	星期三2,3,4(9:10~12:10)
上課地點
備註	研究生初選人數上限為30人。上課地點：電二R229。限學士班三年級以上總人數上限：80人
Ceiba 課程網頁	http://ceiba.ntu.edu.tw/1052CSIE4611_DSP
課程簡介影片
核心能力關聯	核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述	1.本課程專為大學部同學所開授。所需要的最主要基礎能力是數學模型(機率、線性代數)及軟體程式，所有難題由數學模型分析，並由程式求解；其中大部份核心觀念均與機器學習(Machine Learning)密切相關。前半學期強調基礎背景知識，後半則著重研究課題，讓修課同學體會由基礎走入研究的歷程。內容深度適合電機系或資工系大三或大四同學選修。評分依據含期中期末考(35%)、程式作業(35%)、期末專題(30%)。 2.在Apple、Google、Microsoft等全球性產業推出行銷全球的主流產品後，語音技術如何將成為人類生活之一關鍵部份已廣為人知。無線網路環境下日新月異並具多元功能的智慧型手機及各種新型的隨身及可穿戴(Wearable)電子設備如眼鏡、手錶(iwatch)，加上雲端資訊(Cloud Computing)、巨量數據(Big Data)之實現，智慧汽車、智慧家庭等願景，語音技術未來的發展已是無可限量。在輕薄短小的硬體及豐富的應用環境下，原有的鍵盤、滑鼠等個人電腦上網介面不再方便，語音很顯然成為最方便自然的網路介面之一；而網路上的數位內容多以多媒體形式呈現，它們未必有文字檔案，卻都帶著語音訊息。文字和語音終將成為人類語言資訊的兩種對等形式，今日人類生活中的諸多以文字達成的功能(例如上網輸入文字指令、透過文字搜尋數位內容等)均可能用語音達成。這些都是語音訊號處理技術未來可能的空間。 Part I: Fundamental Topics 1.Introduction 2.Basic Concepts in Speech Recognition 3.Research Roadmap in this Area 4.More about Hidden Markov Models (HMM) 5.Acoustic Modeling 6.Language Modeling 7.Speech Signals and Front-end Processing 8.Linguistic Decoding and Search Algorithm Part II: Research Topics 9. Speech Recognition Updates 10. Speech-based Information Retrieval 11. Spoken Document Understanding and Organization for User-content Interaction 12. Computer-Assisted Language Learning (CALL) 13. Speaker Variabilities: Adaption and Recognition 14. Linguistic Processing and Latent Topic Analysis 15. Robustness for Acoustic Environment 16. Some Fundamental Principles–EM Algorithm 17. Spoken Dialogues 18. Conclusion
課程目標	本課程所需要的最主要基礎能力是數學模型(機率、線性代數)及軟體程式，前半強調基礎背景知識，後半則著重研究課題，讓修課同學體會由基礎走入研究的歷程。內容深度適合電機系或資工系大三或大四同學選修。
課程要求
預期每週課後學習時數
Office Hours
指定閱讀
參考書目	1. X. Huang, A. Acero, H. Hon, “Spoken Language Processing”, Prentice Hall, 2001,松瑞 2. C. Becchetti, L. Prina Ricotti, “Speech Recognition- Theory and C++ implementation”, Johy Wiley and Sons, 1999, 民全 3. L. Rabiner, B.H. Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993, 民全 4. F. Jelinek, “Statistical Methods for Speech Recognition”, MIT Press, 1999 5. D. Jurafsky, J. Martin, “Speech and Language Processing- An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics, 2nd edition”, Prentice-Hall, 2009 6. G. Tur, R. De Mori, “Spoken Language Understanding- Systems for Extracting Semantic Information from Speech”, John Wiley & Sons, 2011
評量方式 (僅供參考)

課程進度

週次

日期

單元主題